状态值函数

第 1 条注释：记法 \mathbb{E}\pi[\cdot] 来自推荐教科书。\mathbb{E}\pi[\cdot] 定义为随机变量的期望值（假如智能体遵守策略 \pi。）

第 2 条注释：在这门课程中，我们将不加区分地使用“回报”和“折扣回报”。对于任意时间步 t，这两个术语都指代 G_t \doteq R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \ldots = \sum_{k=0}^\infty \gamma^k R_{t+k+1}，其中 \gamma \in [0,1]。尤其是，当我们提到“回报”时，并不一定是指 \gamma = 1，当我们提到“折扣回报”时，并不一定就是 \gamma < 1。（推荐教科书也是这种情况。）

Next Concept